#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
Created on Fri May  6 15:22:00 2022

@author: cythnia
"""

#————————————————————————————————————————————————#
#解析pdf文件
#————————————————————————————————————————————————#
import pdfplumber
import os
import pandas as pd
import numpy as np
#导入证券代码列表
data=pd.read_excel('/Users/cythnia/Desktop/1.xlsx')
data
lis1=data['code1']
print(lis1)
# 分裂股票代码
lis1=lis1.str.split('s').str[0]
lis1
#设置文件夹列表

  # for file1 in lis1: #定位到每个公司里面的年报
  #     file_list.append(file1)

# #定义多个列表
# liebiao=[]
# for i in lis1:
#     liebiao.append([])
#     for i in range(len(liebiao)):   
#         print(liebiao[i])        
#定义公司所在文件夹
file_list=[]
for i in lis1:
    file='/Users/cythnia/Desktop/年报' #定位到每个公司所在文件夹
    lis2=os.listdir(file)
    for file1 in lis2:
        if i==file1:
           file_list.append(file+'/'+file1)
print(file_list)
liebiao=[]
#定义每个公司年报所在文件夹
for i in file_list:
    lis3=os.listdir(i)
    for j in lis3:
        if j.endswith('.pdf'):
           liebiao.append(i+'/'+j)
        elif j.endswith('.PDF'):
            liebiao.append(i+'/'+j)
print(liebiao[1])
path='/Users/cythnia/Desktop/txt/'
text_all=[]
lis11=[]
#导入pdf解析工具包,解析文件夹中每个文件的内容 
for x in liebiao:
    j=x.split('/')[5]
    w=x.split('/')[6].split('.')[0]
    xx=j+w
    lis11.append(xx)
    #解析一个文件夹多个文件并合并
for i in liebiao:
    j=i.split('/')[5]
    w=i.split('/')[6].split('.')[0]
    pdf=pdfplumber.open(i) #打开pdf文件
    pages=pdf.pages
    for page in pages:
        text=page.extract_text()
                # text_all.append(text)
                # text_all=''.join(text_all)
##保存已经解析的pdf文件夹中所有文件内容（新建txt
        path='/Users/cythnia/Desktop/txt/'
        file=open(path+'%s%s.txt'%(j,w),mode='a',encoding='utf-8')
        for l in text:
            file.write(l)
    print(i+'解析成功')
print('全部年报解析完毕')
